科技 查 新 中 检索 词 智能 抽取 系统 的 设计 与 
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摘要 : 【 目的 ] 解决 科技 查 新 领域 检索 词 选 择 时 的 主观 性 强 、 手 工 工 作 量 大 、 不 规范 、 费 时 费力 的 问题 。[ 应 用 
背景 ] 为 了 实现 检索 词 抽取 过 程 的 自动 化 、 智 能 化 、 规 范 化 , 本 文 提 出 利用 科技 查 新 过 程 检 出 的 实时 相关 语 料 
作为 领域 知识 的 来 源 , 并 对 语 料 组 成 类 型 与 关键 词 抽取 效果 之 间 的 关系 进行 讨论 。[ 方法 ] 通过 关键 词 抽取 、 领 
域 特 征 扩展 相 结合 的 递 进 式 迭 代 抽 取 方 式 实现 科技 查 新 领域 检索 词 的 智能 抽取 。[ 结果 ] 通过 与 实际 查 新 案例 所 
采用 的 检索 词 对 比 , 发 现 使 用 本 方法 两 次 迭代 后 抽取 10 个 检索 词 , 召回 率 达 到 80%。[ 结论 】 基 于 查 新 过 程 中 
检 出 文献 构成 的 动态 相关 语 料 进行 检索 词 的 迭代 抽取 有 助 于 快速 、 准 确 锁 定 绝 大 部 分 检索 词 , 提高 检索 的 效率 
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科技 查 新 是 一 种 通过 文献 检索 、 对 比 和 分 析 , dE 
证 查 新 项 目 新 颖 性 的 信息 咨询 服务 工作 。 根 据 查 新 时 
的 检索 范围 ， 可 分 为 国内 查 新 、 国 外 查 新 和 国际 查 新 
三 类 。 其 中 , 文献 检索 是 科技 查 新 的 基础 , 涉及 检索 式 
的 组 配 ,其 中 检索 词 的 选 定 对 检索 结果 起 着 关键 性 的 
作用 ,是 影响 科技 查 新 质量 的 三 个 重要 因素 之 一 中 
尤其 是 在 进行 国际 查 新 时 , 英文 检索 词 的 正确 与 否 会 
直接 影响 到 检索 结果 的 新 颖 性 、 全面 性 和 准确 性 (简称 
三 性 )。 


检索 词 是 指 表 征 查 新 项 目 主题 内 容 的 、 具 有 实质 


常 使 用 主题 词 和 关键 词 作为 检索 词 进行 文献 检索 。 
主题 词 也 被 称 作 叙 词 和 受 控 词 ， 是 规范 化 的 检索 
语言 ， 是 对 某 一 概念 的 同义词 、 近 义 词 进行 规范 化 处 
理 后 确定 的 检索 词 中 ,主要 来 自 于 规范 化 词 表 。 然 而 ， 
文献 数据 库存 在 标 引 不 规范 的 问题 , 而 且 查 新 员 在 规 
范 化 的 过 程 中 需要 借助 专业 的 叙 词 表 或 受 控 词 表 ,这 
些 规范 化 词 表 通常 因 维 护 周 期 长 而 比较 固定 ,对 一 些 
体现 新 的 技术 、 方 法 、 理 论 的 词 不 能 及 时 登录 , 科技 
查 新 业务 的 文献 检索 则 需要 体现 技术 、 方 法 、 理 论 的 
创新 性 ,因而 使 用 主题 词 作为 检索 词 进行 检索 容易 造 
成 漏 检 ; 而 关键 词 (也 称 自由 词 ), 它 基 于 文献 的 标题 、 
摘要 、 关 键 词 甚至 全 文 进行 词 的 索引 、 检 索 ， 自 由 度 


意义 的 词语 ,对 揭示 和 描述 查 新 项 目 主题 内 容 是 重要 
的 、 关 键 性 的 词语 。 目 前 , 国内 科技 查 新 咨询 机 构 在 
开展 科技 查 新 业务 时 ,为 了 保证 查 新 结果 的 三 性 , 通 


高 , 不 需 考虑 标 引 、 规 范 性 、 主 题词 表 的 更 新 时 效 等 
问题 ,是 电子 信息 资源 的 重要 检索 途径 ,本 研究 以 关 
键 词 检索 作为 研究 重点 。 


通讯 作者 : EKE, ORCID: 0000-0001-7472-7489, E-mail: ywang@itechs.iscas.ac.cn。 
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当前 ,， 查 新 人 员 通 常 需要 手工 完成 检索 词 的 发 
现 、 筛 选 、 补 充 、 扩 展 及 最 终 选 定 , 依据 委托 人 提供 
的 科技 查 新 项 目 资料 以 委托 人 提供 的 关键 词 为 参考 ， 
结合 科学 技术 要 点 、 查 新 点 及 其 他 补充 材料 初步 找 出 
符合 查 新 主题 的 关键 词 P…"， 必 要 时 还 需要 进行 关键 词 
扩展 , 利用 专业 词 表 、 辞 海 、 词 典 、 术 语 标准 等 工具 
书 及 已 检 出 的 文献 获取 检索 词 的 规范 名 称 、 同 义 词 等 
进行 关键 词 扩展 。 此 外 , 查 新 人 员 在 检索 过 程 中 会 进 
行 试 检 , 根据 检 出 文献 的 相关 信息 进一步 判断 检索 词 
是 否 合 适 ， 从 而 对 检索 词 进行 调整 ,为 了 获得 满意 的 
检索 效果 ， 此 过 程 通常 会 反复 多 次 。 

由 此 可 见 , 检索 词 的 选择 要 经 过 相关 文献 的 检 
索 、 检 出 文献 的 浏览 、 分 析 、 综 合 、 调 整 的 迭代 过 程 ， 
需要 向 多 个 文献 数据 库 多 次 提交 检索 请 求 , 反复 试 检 ， 
在 每 次 试 检 后 还 需要 对 检 出 文献 进行 检索 词 分 析 、 调 
整 ， 经 过 多 次 循环 迭代 后 才能 最 终 确 定 检 索 词 ， 因 而 
存在 工作 量 大 、 费 时 费力 , 对 查 新 人 员 的 耐性 也 是 一 
个 不 小 的 考验 。 另 外 , 此 过 程 与 查 新 人 员 的 专业 水 平 、 
经 验 、 知 识 结 构 等 关系 密切 , 具有 和 较 强 的 主观 腾 断 性 ， 
难以 规范 ， 因 而 也 会 直接 影响 最 终 的 检索 效果 ， 从 而 
会 影响 到 科技 查 新 报告 的 质量 。 

为 了 克服 检索 词 选择 主观 性 强 、 手 工 工作 量 大 、 
不 规范 、 费 时 费力 的 问题 ,实现 检索 词 选择 的 科学 性 、 
规范 性 , 本 文 引 入 与 科技 查 新 项 目 有 关 的 动态 文献 语 
料 ， 同 时 立足 查 新 项 目 信息 ， 以 实时 获取 的 与 查 新 项 
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(2) 候选 关键 词 选 择 : 使 用 基于 监督 或 非 监督 的 
方法 判断 哪些 候选 关键 词 是 正确 的 。 

大 量 的 关键 词 抽取 研究 工作 集中 在 候选 关键 词 的 
选择 上 ， 主 要 分 为 有 监督 和 无 监督 两 类 。 早 期 的 基于 
监督 的 方法 将 关键 词 抽取 看 作 一 个 分 类 问题 ,通过 利 
用 已 标注 语 料 进行 数据 训练 , 构建 学 习 模 型 ， 进 而 判 
断 词语 是 否 属于 关键 词类 别 , 学 习 算 法 包括 朴素 贝 叶 
ME, RRR, RAS, ZAREAN Ez e 
模型 9 等。 基于 监督 的 方法 需要 事先 用 作者 提供 的 
关键 词 或 专家 标注 的 关键 词 进行 语 料 标注 ,因而 成 本 
比较 高 。 另 外 ,分 类 器 在 判定 一 个 词 是 否 为 关键 词 的 
过 程 中 独立 于 其 他 词 , 而 Turmey02 的 研究 显示 ,关键 
词 的 选择 并 不 是 相互 独立 的 ， 即 之 前 选择 的 关键 词 会 
对 后 面 的 关键 词 选择 有 影响 。 

关键 词 抽取 技术 主要 分 为 三 类 : 基于 统计 特征 的 
关键 词 抽取 、 基 于 主题 模型 的 关键 词 抽取 和 基于 词 图 
模型 的 关键 词 自动 抽取 方法 。 

基于 统计 特征 的 关键 词 抽取 通过 计算 词 的 某 些 特 
征 ( 如 词 频 、N-gram03l 、TF-IDF fü. (EAS, 结合 
其 位 置 标记 (如 题名 、 段 首 、 首 次 出 现 的 位 置 等 ) 为 词 
分 配 权重 , 根据 权重 大 小 顺序 提取 关键 词 。 如 Frank 
等 四 在 构造 模型 时 使 用 TF-IDF 得 分 、 关 键 词 第 一 次 出 
现 的 位 置 两 项 特征 ; 潘 丽 敏 等 吧 在 关键 词 抽取 过 程 中 
除了 使 用 TF-IDF 得 分 , 还 融合 了 关键 词 短语 的 长 度 、 
短语 是 否 在 题名 中 出 现 、 短 语 在 文档 中 的 分 布 情况 、 


目 相 关 的 动态 语 料 作 为 领域 知识 的 来 源 , 采取 关键 词 
抽取 、 领 域 特征 扩展 相 结 合 的 递 进 式 迭 代 方 式 进 行 检 
索 词 的 抽取 。 


2 相关 工作 


2.1 关键 词 自动 抽取 

关键 词 自动 抽取 技术 在 文献 检索 、 自 动 文摘 、 文 
本 聚 类 、 分 类 等 领域 都 有 很 广泛 的 应 用 ， 如 信息 检索 
领域 ,好 的 关键 词 可 作为 全 文 索引 的 补充 ， 有 助 于 用 
户 发 现 相关 文档 。 

关键 词 的 自动 抽取 过 程 通常 分 为 两 步 吕 : 

(1) 候选 关键 词 识别 : 使 用 某 些 启 发 式 规则 (去 掉 
停 用 词 ; 词性 选择 上 只 保留 名 词 、 形 容 词 、 动 词 ; 使 用 
外 部 资源 如 维基 百科 ; N 元 语法 等 ) 抽 取出 词 或 词组 作 
为 候选 关键 词 ; 


最 大 词 频 和 最 小 词 频 等 特征 。Hulth 55 加 入 了 语言 学 
知识 如 名 词 短 语 块 (NP Chunking) 和 词性 标注 (Part- 
of-Speech tags , POS), 使 抽取 正确 率 大 为 提高 。 

基于 主题 模型 的 关键 词 抽 取 方 法 以 基于 LDA 的 
关键 词 抽取 方法 应 用 最 为 广泛 14， 通过 大 量 已 知 的 
“词语 -文档 ”矩阵 和 一 系列 训练 推理 出 “文档 -主题 ”分 
布 和 “主题 -词语 ”分 布 ， 该 方法 认为 在 文档 中 主要 主 
题 中 的 主要 词语 更 有 可 能 被 识别 为 关键 词 。 主 题 模 型 
需要 对 数据 进行 训练 得 到 ,关键 词 抽取 的 效果 与 训练 
数据 的 主题 分 布 关系 密切 。 

基于 图 模型 的 关键 词 抽 取 以 TextRank 算法 为 
典型 代表 ,其 提出 受到 Google 的 PageRank ORAY 
启发 。 它 基于 文档 构建 一 个 词 图 ， 图 中 每 个 节点 对 应 
一 个 候选 关键 词 , 每 条 边 代 表 候 选 关 键 词 之 间 的 关系 ， 
当 两 个 词语 在 一 个 观测 窗口 出 现 , 那么 它们 之 间 就 建 
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立 了 关联 关系 。 对 每 个 节点 , 与 其 相连 的 每 一 条 边 都 
认为 是 一 次 “投票 ” 其 重要 性 由 与 其 相连 的 其 他 节点 
决定 , 通过 循环 近 代 计算 , 按 词语 的 重要 性 得 分 高 低 
最 终 确定 关键 词 ， 从 而 实现 了 基于 单 文 档 的 关键 词 
抽取 。 

另外 , 关键 词 抽取 时 除了 使 用 文档 本 身 的 特征 以 
外 , 还 引入 了 各 种 领域 知识 。 主 要 分 为 两 类 : 

(1) 词典 类 。 如 叙 词 表 记 汶 、 互 联网 词典 5 、 术 
语 数 据 库 中 或 维基 百科 中 等 通用 领域 词典 、 百 科 资 源 。 
维基 百科 含有 丰富 的 百科 词 条 ,每 个 维基 百科 词 条 可 
看 作 是 一 个 独立 的 概念 。 其 中 , 文献 [9] 利 用 一 个 词 为 维 
基 百 科 词 条 的 可 能 性 作为 关键 词 特性 的 判断 依据 。 

(2) 语 料 类 。 主 要 包括 领域 相关 语料库 、 通 用 语 
料 库 、 对 比 语料库 。 已 有 实验 表明 ,相同 领域 的 文档 
对 关键 词 的 抽取 效果 有 很 大 的 帮助 : 文献 25] 使 用 与 
待 抽取 文档 相同 领域 的 语 料 信息 ， 即 作者 标注 关键 词 
的 长 度 、 成 分 和 词 频 信息 ; 文献 [6] 在 模型 训练 时 同样 
使 用 与 待 抽取 文档 相同 领域 的 文档 上 且 抽 取 效 果 与 所 
需 文档 的 数量 成 正 相 关 , 这 表明 ,相同 领域 的 文档 越 
多 抽取 效果 越 好 。 但 这 也 带 来 一 个 现实 的 问题 , 领域 
有 关 的 语 料 均 来 自 于 人 工 获 取 , 是 数量 庞大 ， 势 必要 
耗费 大 量 时 间 和 人 力 成 本 , 而 且 这 些 语 料 都 是 静态 的 
语 料 , 会 随 着 时 间 的 变化 而 变 得 过 时 ,时效 性 不 强 , 在 
基于 科技 文献 的 关键 词 抽取 领域 , 文献 [26] 提 出 将 文 
献 的 标题 和 关键 词 作为 种 子 词语 , 基于 开放 领域 的 语 
料 库 利用 Word2Vec 找 出 相似 的 词语 作为 候选 词 ， 实 
mE, 开放 领域 的 语料库 本 身 对 于 检索 词 而 言 在 领域 
相关 性 方面 并 不 占 优势 。Lopes 等 在 计算 领域 相关 
性 时 使 用 了 对 比 语料库 , 但 是 对 比 语料库 语 料 选择 以 
及 其 语料库 的 大 小 都 会 直接 影响 到 抽取 效果 ,同时 , 在 
实际 应 用 中 , 语料库 的 人 工 获取 也 是 一 个 严峻 的 问题 。 
2.0 ”检索 词 推荐 

与 本 研究 相关 的 另外 一 种 就 是 基于 数据 挖掘 的 检 
索 词 推荐 技术 。 通 常 ， 推 荐 分 为 基于 规则 过 滤 、 基 于 
内 容 过 滤 、 基 于 协作 过 滤 以 及 多 方法 混合 的 推荐 方法 。 
此 类 推荐 系统 通常 基于 用 户 使 用 过 程 中 产生 的 历史 行 
为 记录 ， 如 检索 日 志 等 ,通过 对 用 户 行为 进行 建 模 ， 
挖掘 其 中 的 行为 规律 ， 因而 检索 词 的 推荐 技术 建立 在 
已 有 系统 的 有 效 运行 基础 之 上 , 重 在 已 有 静态 数据 的 
挖掘 ， 而 本 研究 重 在 检 出 相关 文献 的 检索 词 动态 抽取 ， 
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因而 侧重 点 不 同 。 
233 ”本 研究 主要 贡献 

综 上 , 本 研究 是 基于 查 新 项 目的 题目 、 关 键 词 、 
科技 要 点 、 查 新 点 及 检索 过 程 中 产生 的 文献 的 相关 知 
识 进 行 检索 词 的 抽取 ， 自动 抽取 与 输入 的 检索 词 有 关 
的 领域 特征 词 作 为 候选 检索 词 。 本 研究 具有 以 下 几 个 

(1) 基于 查 新 项 目 及 与 查 新 项 目 有 关 的 动态 文献 
语 料 进行 检索 词 抽取 。 而 传统 的 关键 词 提取 主要 面向 
科技 论文 、 论 文摘 要 、 网 页 等 单 文档 或 使 用 语料库 , 本 
研究 的 主要 抽取 对 象 则 为 科技 查 新 项 目 申请 及 检索 过 
程 中 产生 的 文献 语 料 , 是 由 科技 查 新 申请 及 文献 检索 
阶段 产生 的 多 个 其 至 很 多 个 相关 文献 组 成 , 这些 文献 
有 具有 领域 相关 性 、 数 据 量 大 、 内 容 丰 富 、 内 容 权威 性 
强 等 特点 , 通过 网 络 息 虫 在 线 获取 ,可 以 与 数据 源 保 
持 同 步 , 具有 动态 性 、 实 时 性 , 不 会 随 着 时 间 的 变化 而 
发 生 过 时 。 

(2) 侧重 于 领域 知识 的 引入 。 传 统 的 关键 词 抽取 
技术 以 文献 标 引 为 目的 ,因而 在 关键 词 抽取 过 程 中 仅 
限于 文献 的 题目 、 摘 要 、 正 文 内 容 , 除了 利用 检 出 文 
献 的 题目 、 摘 要 以 外 , 还 利用 文献 的 关键 词 ， 而 这 些 关 
键 词 通 常 是 由 作者 选 定 的 ， 是 表示 领域 概念 的 基本 要 
素 , 具有 和 较 强 的 指示 性 、 领 域 区 分 能 力 , 是 检索 词 的 重 
要 来 源 。 

(3) 本 研究 抽取 的 候选 检索 词 主 要 辅助 查 新 员 快 
速 找 出 相关 检索 词 , 充分 利用 科技 文献 本 身 作 者 标注 
关键 词 的 领域 专业 特性 ， 有 助 于 防止 漏 检 、 提 高 国际 
查 新 的 查 全 率 、 查 准 率 。 这 与 以 文献 标 引 为 目的 的 关 
键 词 抽取 有 很 大 区 别 。 

(4) 候选 检索 词 的 抽取 过 程 具有 动态 性 、 递 进 性 。 
传统 的 关键 词 抽取 一 次 即 可 实现 关键 词 的 抽取 ， 而 面 
向 科技 查 新 的 检索 词 抽取 过 程 具有 交互 性 和 动态 性 。 
查 新 员 在 检索 过 程 中 通过 迭代 、 反 复 检索 , 逐步 递 进 
地 调整 检索 词 以 获取 满意 的 检索 效果 。 

基于 以 上 4 点 特性 , 本 文 首 先 对 文献 中 作者 标注 
的 关键 词 在 题名 、 摘 要 的 分 布 情况 做 抽样 统计 , 分 析 
科技 文献 的 关键 词 与 题名 、 摘 要 的 分 布 关系 ,然后 基 
于 检 出 的 语 料 按 题名 、 关 键 词 、 摘 要 三 种 类 型 以 词语 
共 现 关系 作为 词语 之 间 的 关联 关系 ,以 共 现 词语 的 词 
频 (Term Frequency) 作 为 关联 关系 的 强度 构建 词 图 并 


进行 候选 检索 词 的 抽取 实验 , 并 通过 对 比 实验 结果 ， 
分 析 三 者 在 检索 词 抽取 效果 方面 的 贡献 程度 。 最 后 ， 
通过 关键 词 抽取 、 领 域 特征 扩展 相 结 合 的 递 进 式 迭 代 
抽取 方式 实现 科技 查 新 领域 检索 词 的 智能 抽取 , 并 通 
过 实际 的 查 新 案例 进行 说 明 。 


3 系统 设计 


面向 科技 查 新 领域 的 检索 词 智能 抽取 系统 由 基于 
网 络 爬 虫 的 文献 在 线 检 索 、 检 索 词 智能 抽取 两 部 分 组 
成 。 由 于 检索 词 的 智能 抽取 与 查 新 项 目 有 关 ， 建 立 在 
与 查 新 项 目 相 关 的 动态 语 料 的 基础 上 ， 因 而 语 料 的 获 
取 是 抽取 系统 的 重要 组 成 部 分 。 

系统 采用 Spring Web MVC 和 Hibernate 框架 开发 ， 
前 者 是 一 种 基于 Java 的 实现 了 Web MVC (Model- 
View-Controller) 设 计 模 式 的 请 求 驱 动 类 型 的 轻 量 级 
Web 框架 , 后 者 是 一 个 开放 源 代码 的 对 象 关 系 映射 
架 , 它 对 JDBC 进行 了 非常 轻 量 级 的 对 象 封装 ,本 地 
数据 采用 MySQL 数据 库存 储 采 集 到 的 文献 信息 , K 
现 了 数据 、 业 务 与 展现 的 分 离 。 
31 语 料 获取 

语 料 获 取 主 要 通过 网 络 爬 虫 在 线 获取 各 个 文献 检 
索 系 统 检 出 的 科技 文献 信息 ,其 流程 如 图 1 所 示 : 
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图 1 文献 在 线 检索 流程 


China hi Adae HAI 
ChinaAIVmETF RH | | 


总 第 276 期 20164 第 11 期 


获取 的 动态 语 料 生 成 可 供 查 新 员 直 接 使 用 的 检索 词 ， 
其 流程 如 图 2 所 示 : 
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图 2 检索 词 智能 抽取 流程 


检索 词 智能 抽取 过 程 由 以 下 几 个 步骤 组 成 : 

(1) 语 料 获取 。 根 据 查 新 项 目的 题目 自动 生成 检 
索 词 并 组 配 检索 式 进 行 跨 库 检索 ,实时 获取 检 出 文献 
信息 ,存储 到 本 地 数据 库 中 。 

(2) 候选 检索 词 抽取 。 基 于 步骤 (1) 生 成 的 动态 语 
料 自动 抽取 10 个 候选 检索 词 。 

(3) 候选 检索 词 扩展 。 对 步骤 (2) 生 成 的 候选 检索 
词 进行 领域 特征 扩展 , 生成 检索 词 表 。 

(4) 判断 。 人 工 核查 检索 词 表 是 否 满足 需求 ， 如 不 
满足 ， 可 以 选择 合适 的 检索 词 手动 组 配 检索 式 重 复 步 
又 (0D) 到 步 又 (3)。 

(5) 合并 。 根 据 检 索 词 表 中 每 个 词 的 重要 性 进行 
合并 ,生成 最 终 的 检索 词 列表 。 


4 检索 词 抽取 方法 


通常 情况 下 , 重要 的 术语 在 相同 领域 的 科技 文献 
语 料 中 出 现 的 概率 较 高 。 而 且 , 科技 文献 具有 丰富 的 


网 络 仆 虫 是 一 个 抓 取 网 页 内 容 的 程序 , 利用 网 页 
格式 特征 进行 网 页 分 析 中 。 在 本 系统 中 , 数据 预 处 理 


文档 结构 , 通常 包含 标题 、 摘 要 、 作 者 标注 的 关键 词 等 
相关 信息 , 在 语言 表达 上 具有 领域 专业 性 。 另 外 , 检索 


主要 利用 网 页 的 标签 结构 分 析出 文献 的 标题 、 摘 要 、 
中 英文 关键 字 、 作 者 等 信息 并 存储 到 本 地 数据 库 服 务 
器 。 本 系统 还 设置 了 搜索 日 志 , 解决 热门 检索 词 的 因 
反复 检索 造成 的 时 间 耗 费 较 长 的 问题 , 对 于 重复 的 检 
索 式 可 以 将 以 前 抓 取 的 结果 展示 给 用 户 ， 另 外 , 系统 
还 设置 了 去 重 处 理 ， 防 止 数 据 的 重复 采集 。 
3.2 ”检索 词 智能 抽取 

仿 索 词 智 能 抽取 的 目的 是 基于 科技 查 新 文献 检索 


词 与 科技 查 新 项 目 密切 相关 , 而 且 很 多 都 是 专业 术语 。 

基于 以 上 考虑 , 本 文 提 出 利用 科技 查 新 过 程 中 检 
出 语 料 与 查 新 项 目的 领域 相关 性 , 在 首次 获取 相关 语 
料 时 利用 标题 中 的 有 关 词 组 配 检索 式 获取 领域 相关 语 
料 。 基 于 检 出 语 料 , 抽取 出 具有 提示 特征 的 关键 词 , 在 
此 基础 上 进行 领域 特性 的 扩展 , 生成 相关 的 候选 检索 
词 。 该 方法 基于 这 样 一 个 假设 : 查 新 项 目的 标题 是 查 
新 主题 的 简明 描述 , 查 新 项 目的 科技 要 点 是 查 新 项 目 
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的 详细 描述 。 

考虑 到 查 新 项 目的 标题 在 主题 表达 上 并 不 能 反映 
查 新 项 目的 所 有 领域 特征 , 在 这 里 , 使 用 多 次 迭代 、 反 
复 检索 的 方式 , 在 后 续 的 每 一 次 迭代 过 程 中 ,都 由 查 
新 员 从 已 生成 的 检索 词 表 中 选择 检索 词 或 检索 词 的 组 
合 组 配 检索 式 进 行 领域 相关 语 料 的 获取 。 

检索 词 的 抽取 过 程 主要 包括 三 个 步骤 : 基于 检 出 
文献 语 料 抽取 候选 检索 词 ; 对 候选 检索 词 进行 领域 特 
性 的 扩展 ; 合并 。 
4.1 抽取 候选 检索 词 

(1) 语 料 分 析 

候选 检索 词 的 抽取 语 料 来 源 于 各 个 文献 数据 库 根 
据 接收 到 的 检索 式 返 回 的 文献 信息 ,通过 疏 虫 程序 抓 
取 文 献 的 标题 、 关 键 词 、 摘 要 等 信息 作为 候选 检索 词 
的 抽取 对 象 。 

科技 文献 的 关键 词 是 为 了 文献 标 引 工作 而 从 学 术 
论文 中 或 之 外 选择 出 用 以 表示 全 文 主题 内 容 信息 款 目 
的 单词 和 术语 ,是 未 规范 的 自然 语词 名。 在 计量 统计 
学 领域 , 研究 者 认为 文献 的 关键 词 是 表示 领域 概念 的 
基本 要 素 , 它 主要 用 来 从 宏观 上 人 研究 领域 知识 的 结构 
特征 或 者 从 微观 上 使 用 一 些 “ 重 要 ” 词 分 析 一 个 领域 的 
主要 研究 主题 的 细节 及 其 它们 之 间 的 关系 中 。 因 此 ， 
科技 文献 的 关键 词 本 质 上 反映 了 该 领域 的 知识 结构 和 
主题 特性 ， 是 领域 特征 词 ,在 某 一 领域 中 具有 较 强 指 
示 性 、 领 域 区 分 能 力 ， 因而 是 获取 高 质量 检索 词 的 重 
要 来 源 。 

为 了 更 清楚 地 观察 科技 文献 中 作者 标注 关键 词 在 
标题 、 摘 要 的 分 布 情况 , 本 文 基于 知 网 数据 库 和 万 方 
数据 库 所 收录 的 文献 做 抽样 统计 , 结果 如 图 3 所 示 : 
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图 3 论文 题名 、 摘 要 与 关键 词 的 分 布 比率 分 析 


在 这 里 ,使 用 平均 比率 avg(t) 表示 关键 词 在 标 
题 、 摘 要 及 标题 和 摘要 的 组 合 中 的 分 布 比例 。 
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其 中 ，n(t;) 表示 文献 的 关键 词 在 题名 、 摘 要 或 二 
者 的 组 合 文本 中 出 现 的 个 数 ，|t| 表 示 文 献 关 键 词 的 
总 个 数 。 

观察 图 3 发 现 , 关键 词 在 文献 标题 的 分 布 约 占 
50%， 而 论文 摘要 中 包含 的 关键 词 数量 更 多 , 尤其 是 
知 网 , 平均 比率 达到 80% 以 上 , 标题 和 摘要 二 者 的 组 
合 对 关键 词 的 包含 率 均 达到 80% 以 上 ,因而 在 进行 候 
选 检索 词 的 选择 时 ,文献 本 身 提 供 的 关键 词 是 候选 检 
索 词 非常 重要 的 来 源 。 

为 了 更 加 清楚 地 查看 文献 的 标题 、 关 键 词 、 摘 要 
在 检索 词 抽取 时 所 产生 的 不 同 效果 , 分 别 基于 文献 的 
标题 、 关 键 词 、 摘 要 及 其 它们 之 间 的 组 合 文本 进行 不 
同方 法 的 检索 词 抽取 实验 。 

(2) 基于 改进 的 TextRank 候选 检索 词 抽取 

经 典 的 TextRank 算法 在 进行 关键 抽取 时 , 一 个 文 
档 用 一 个 无 向 图 来 表示 , 图 的 节点 表示 词 ， 在 给 定 的 
文本 和 窗口 内 任意 两 个 词 之 间 都 构建 一 条 边 ,对 图 中 的 
任 一 节点 来 说 ， 甚 重要 性 得 分 由 其 相 邻 节点 的 贡献 组 
成 , 基于 PageRank 方法 进行 词语 重要 性 的 迭代 计算 ， 
在 该 算法 中 , 任意 两 个 相 邻 词 之 间 的 关联 度 是 相同 的 ， 
未 探讨 相 邻 词语 之 间 的 影响 力 强 弱 。 然 而 在 科技 查 新 
的 文献 检索 过 程 中 , 检 出 文献 通常 数量 较 多 ， 且 文献 
之 间 以 检索 词 为 纽带 , 互相 具有 一 定 的 关联 性 , 词 频 
较 大 的 词 或 词组 在 一 定 程度 上 反映 了 检 出 文献 的 主题 
信息 倾向 ,， 因而 在 本 文中 ,以 词 频 为 基础 对 经 典 的 
TextRank 算法 进行 改进 ( 记 为 MF_TR), 以 词 出 现 的 频 
次 作为 词语 的 重要 性 影响 因子 , 重要 性 转移 矩阵 同样 
以 词 频 为 基础 ,候选 词 的 重要 性 得 分 计算 公式 如 下 : 
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keset(j) 

其 中 , setQi) 为 词 i 的 共 现 词 , tf) 2918) i 的 词 频 。 
通过 公式 (2) 计 算 每 个 词 的 重要 性 得 分 按 得 分 大 
小 进行 降序 排序 ,选择 排序 靠 前 即 重要 性 较 高 的 前 10 
个 词 作为 候选 检索 词 。 
4.2 ”候选 检索 词 的 扩展 

对 获得 的 关键 词 基于 检 出 文献 的 关键 词 或 摘要 等 
相关 文本 语 料 进行 领域 特征 的 扩展 。 由 于 大 部 分 中 文 
词性 标注 系统 基本 上 以 新 闻 语 料 进行 训练 ， 而 科技 文 


score(t;) (2) 


献 的 关键 词 却 很 少 出 现在 新 闻 语 料 中 , 男 外 , 分词 系 
统 在 分 词 的 过 程 中 一 些 专 业 术 语 也 会 因 各 种 原因 被 分 
市 开 来 ， 如 词 “ 全 沟 硬 蜂 ”经 过 分 词 后 ,“ 全 沟 ” 被 单独 
作为 一 个 词 对 待 , 因而 为 了 对 这 类 错误 进行 纠正 ， 笔 
者 对 每 个 抽取 出 来 的 关键 词 在 检 出 文献 的 关键 词 集合 
中 查找 是 否 有 包含 该 关键 词 的 领域 特征 关键 词 ， 如果 
存在 , 那么 作为 候选 检索 词 ， 并 计算 其 作为 重要 性 得 
分 。 考 虑 到 摘要 是 正文 主题 内 容 的 概括 性 描述 ， 因 而 
使 用 候选 检索 词 在 摘要 文本 中 出 现 的 频次 作为 重要 性 
调节 因子 , 并 结合 候选 检索 词 的 短语 特性 (公式 (3)) 计 
算 其 重要 性 得 分 (公式 (4))。 


|T | log, freq(T)freq(T) 


GDC(T)- 3) 
freq(t) x N 
DGDC(T) - tf(T) x GDC(T) (4) 


其 中 , T 为 候选 检索 词 ， IT 为 其 所 包含 的 词语 t 的 
个 数 ， 而 不 是 所 含 的 字 的 个 数 ,，N 为 检 出 文献 的 数量 ， 
tf(T) 为 待 抽取 文档 描述 性 文本 所 包含 的 候选 检索 词 
的 频次 ， 如 果 是 科技 文献 , 则 为 摘要 或 正文 中 T 出 现 
的 次 数 , 本 实验 中 使 用 科技 要 点 作为 科技 查 新 项 目的 
描述 。 对 于 T 出 现 次 数 为 0 的 情况 , 给 定 一 个 特定 的 
初始 值 0.1F, 这 意味 着 如 果 T 在 相关 语 料 中 即使 作为 
领域 关键 词 的 短语 特性 具有 很 高 的 值 , 但 是 如 果 在 描 
述 性 文本 中 没有 出 现 , 那么 其 最 终 的 领域 重要 性 得 分 
将 被 拉 低 , 事实 上 , tf(T) 可 看 做 一 个 权重 因子 , 对 候选 
关键 词 T 的 最 终 领 域 重要 性 得 分 起 着 调节 作用 。 

4.3 ”检索 词 合并 

由 于 在 实际 的 查 新 过 程 中 , 检 出 文献 对 检索 词 有 
很 重要 的 影响 , 因此 以 上 三 个 步骤 可 重复 进行 ,除了 
第 一 次 自动 生成 检索 式 以 外 , 后 续 均 基于 生成 的 检索 
词 表 或 查 新 项 目的 关键 词 等 信息 手工 组 配 检 索 式 , 最 
后 对 扩展 后 的 检索 词 集 合 根据 重要 性 进行 排序 , BOE 
要 性 最 高 的 前 10 个 作为 最 终 的 检索 词 。 


5 实 验 


5.1 数据 源 

本 实验 采用 真实 的 科技 查 新 委托 申请 数据 ， 其 题 
目 、 关 键 词 、 科 技 要 点 、 查 新 点 及 其 他 信息 均 来 自 于 
客户 的 填写 。 用 来 提取 特征 词 的 科技 文献 源 于 科技 查 
新 业务 平台 采集 的 相关 文献 。 用 户 通过 初始 的 检索 词 


总 第 276 期 20164 第 11 期 


组 配 检索 式 , 并 将 检索 请 求 发 送 给 各 个 文献 检索 库 ， 
利用 开源 网 页 分 析 工 具 HtmlParser 对 页 面 进行 分 析 ， 
提取 文献 题名 、 关 键 词 、 作 者 、 期 刊 名 称 及 期 刊 号 、 
摘要 、 受 控 词 、 非 受 控 词 等 文献 相关 信息 ,并 存储 在 
本 地 数据 库 。 目 前 ,科技 查 新 业务 平台 支持 中 英文 检 
R, 中文 包括 万 方 、 知 网 ， 英文 包 括 Web of Science, 
EI 数据 库 。 
5.2 ”数据 预 处 理 

数据 预 处 理 过 程 包括 数据 格式 规范 化 、 数 据 去 重 
和 文本 预 处 理 。 

(1) 数据 格式 规范 化 : 由 于 不 同 的 文献 数据 库 在 
文献 收录 的 过 程 中 采用 不 同 的 标准 ,因而 有 必要 对 采 
集 的 文献 格式 进行 统一 、 标 准 化 处 理 。 

D 数据 去 重 : 由 于 中 国 知 网 、 万 方 数据 、 重 庆 维 
普 等 中 文 数据 库存 在 重复 收录 文献 的 情况 ， 如 维普 数 
据 库 对 万 方 期 刊 数据 库 的 重复 率 为 93.6%, 对 中 国 知 
网 的 重复 率 为 94.1%F， 因 而 有 必要 在 数据 预 处 理 阶 
段 进行 去 重 。 
通过 对 万 方 、 知 网 等 采集 的 数据 初步 分 析 , 将 文 
献 资源 的 重复 分 为 两 类 : 

QD 数据 库 重复 收录 。 即 同一 文献 被 一 个 或 多 个 数据 库 重 
复 收录 两 次 或 以 上 。 

@) 重 复出 版 。 一 个 研究 成 果 被 发 表 在 不 同 的 杂志 或 出 版 
物 上 。 

去 重 算法 利用 论文 题名 、 第 一 作者 、 期 刊 和 年 份 
作为 去 重 的 依据 ,并 对 所 检测 的 重复 进行 分 类 ,以 便 
后 续 针 对 不 同类 型 的 重复 采取 不 同 的 处 理 策略 。 对 于 
第 一 种 重复 类 型 ， 需 要 删除 重复 的 文献 。 对 于 第 二 种 
重复 类 型 ， 暂 时 保留 。 

(3) 文本 预 处 理 : 此 过 程 主要 从 检 出 的 文献 识别 
候选 关键 词 。 

分 词 、 词 性 标注 、 词 性 选择 : 利用 HanLP THE 
提供 的 词性 标注 器 (Part-of-Speech tagging) 为 检 出 文献 
进行 分 词 并 标注 词性 ， 除 掉 标点 符号 、 数 词 、 区 别 词 、 
连词 、 叹 词 、 拟 声 词 、 人 介词、 量词、 助词、 语气 词 、 
状态 词 、 代 词 ， 其 他 类 型 词性 的 词 被 保留 。 

去 掉 停 用 词 : 针对 文献 的 摘要 特点 , 在 通用 停 用 
词 表 的 基础 上 添加 科技 文献 的 摘要 中 常用 的 词 ， 如 研 
究 、 具 有 、 采 用 、 进 行 、 结 果 表 明 、 应 用 、 方 法 、 问 
题 、 分 析 等 。 
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5.3 ”候选 检索 词 抽取 实验 

(1) 相关 方法 介绍 

本 文选 择 4 种 常见 的 关键 词 抽取 方法 作为 对 比 ， 
包括 Most Frequent P"(MF), Term Frequency - Inverse 
Document Frequency (TF-IDF)、 Latent Dirichlet Allocation 
(LDA), 、TextRank(TR)， 选 择 重 要 性 得 分 较 高 的 10 个 
词 作为 候选 检索 词 。 

(DMF: 自动 抽取 关键 词 的 最 简单 的 方法 就 是 考虑 出 现 
频率 最 大 的 词 。 在 本 文中 , 每 个 词语 的 重要 性 得 分 由 检 出 文 
献 中 该 词 的 出 现 频次 决定 ， 即 : 

Score(ti) — f(t;) (5) 

@TR: 基于 文献 [19] 对 经 典 TextRank 的 描述 ,词语 的 重 
要 性 得 分 为 : 


score(t;) (6) 


Jr, de[0,1] 为 阻尼 系数 (Damping Factor), 在 实验 中 ， 
取 值 为 0.85f，e Ati det; 038, ò a 代表 词语 是 否 共 现 
车 有 共 现 关系 ,其 值 为 1, 反之 为 0。 

(TF-IDF: 其 基本 思想 为 一 个 词语 的 重要 性 由 该 词 的 
词 频 和 它 在 语 料 中 分 布 决定 。 文献 中 词汇 的 频 度 越 高 ， 在 茶 
种 程度 上 就 意味 着 其 与 文献 所 表达 主题 相关 的 可 能 性 较 高 ， 
但 是 如 果 该 词汇 在 大 量 句子 中 都 出 现 ， 则 其 重要 性 会 因为 特 
征 不 明显 而 降低 。 本 文采 用 如 下 公式 计算 词语 的 重要 性 得 分 : 

Score 人 ti ) = TF-IDF(t;) = f(t;) x hog s (7) 

JP, f(t) X t; 在 检 出 文献 中 出 现 的 总 次 数 , N 为 检 出 
的 文献 总 个 数 ，n(t;) A 6,39) 35 t 的 文献 个 数 。 

LDA: 基于 文献 对 LDA 模型 的 描述 , A n 为 语料库 
中 文档 的 个 数 , p 表示 LDA 中 主题 -词语 的 概率 分 布 ，9z 表 
示 词 语 w 在 主题 z 中 的 概率 ,6 表示 文档 -主题 的 概率 分 布 ， 
O 表示 文档 di 中 主题 z 的 概率 。 本 实验 中 ,一 个 词语 w 
在 文档 集 D 中 面向 { 个 主题 的 概率 通过 以 下 公式 计算 : 


P(v|D) -E Y otro) (8) 
i=l j=1l 

数值 的 大 小 可 以 反映 词语 在 文档 集中 面向 主题 的 重要 
性 ， 按 照 值 的 大 小 顺序 选择 前 o 个 词 作 为 关键 词 ， 在 本 实验 
中 G 取 值 为 10。 

Q) 实验 及 方法 对 比 

人 @ 语 料 与 抽取 效果 

首先 ， 以 “石墨 烯 在 锂电 池 中 的 应 用 及 发 展 前 景 "为 例 进 
行 抽取 。 

在 实施 文献 检索 阶段 ,为 了 控制 在 线 检索 的 时 间 、 爬 下 
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获取 及 解析 数据 的 时 间 以 及 返回 过 量 无 用 文献 ， 以 每 个 文 
献 数据 库 在 线 获取 不 超过 110 条 记录 为 限 , 采取 递 进 式 、 交 
互 式 的 方式 对 获取 的 文献 进行 实验 。 

使 用 检索 式 “石墨 烯 ” 进 行 检索 ,在 万 方 检 出 110 条 记录 ， 
基于 检 出 文献 的 题名 、 关 键 词 、 摘 要 以 MF_TR 检索 词 提 取 
方法 (其 中 , 文本 共 现 的 观测 窗口 w 默认 为 5， 和 迭代 运算 的 终 
止 条 件 为 迭代 次 数 大 于 200 或 两 次 迭代 结果 的 差异 值 小 于 
等 于 0.001f) 分 别提 取 10 个 候选 检索 词 ， 其 结果 如 表 1 所 示 : 

表 1 检索 式 为 “石墨 炳 ?候选 检索 词 抽 取 实 验 结果 


序号 关键 词 题名 摘要 
1 TUA Ti SS 石墨 烯 
2 graphene graphene graphene 
3 氧化 制备 * 氧化 
4 oxide 氧化 制备 * 
5 还 原 性 能 * 结构 
6 石墨 preparation* 还 原 
7 结构 oxide 性 能 * 
8 纳米 复合 材料 复合 材料 
9 复合 材料 还 原 材料 * 
10 化 学 synthesis* rgo* 


( 注 : 以 基于 关键 词 抽取 的 候选 检索 词 为 基准 , 标注 * 的 候选 词 
为 新 出 现 的 词 。) 


以 检索 式 “ 锂 电池 ”候选 检索 词 抽取 实验 结果 ,其 结果 如 
表 2 所 示 : 
表 2 检索 式 为 “锂电 池 ” 候 选 检 索 词 抽取 实验 结果 


序号 关键 词 题名 摘要 
1 锂电 池 锂电 池 锂电 池 
2 battery battery 电池 
3 lithium lithium 生 能 
4 电池 batteries* 充 放电 * 
5 储 能 li-ion* 系统 * 
6 磷酸 铁 energy* 循环 * 
7 soc 性 能 battery 
8 状态 based* 模型 * 
9 性 能 储 能 SOC 
10 材料 storage* 容量 * 


观察 表 1 和 表 2 可 知 : 基于 检 出 文献 的 题名 、 关 键 词 、 
摘要 进行 候选 检索 词 的 抽取 实验 中 , 检索 式 “ 石 墨 烯 " 共 有 
16 个 不 同 候选 检索 词 ， 其 中 共同 出 现 的 词 有 5 ^, 占 比 
31.25%; 检索 式 “ 锂 电池 ”共有 20 个 不 同 候选 检索 词 ， 其 中 
共同 出 现 的 词 有 3 个 ， 占 比 15%。 由 此 说 明 , 对 不 同 的 检索 
式 ， 所 抽取 的 候选 检索 词 在 题名 、 关 键 词 和 摘要 中 共 现 的 分 
布 差别 较 大 。 在 抽取 的 效果 方面 , 基于 关键 词 、 题 名 抽取 的 
候选 检索 词 在 同位 、 上 下 位 关系 方面 要 好 于 基于 摘要 的 抽取 
方式 。 基 于 检 出 文献 关键 词语 料 抽 取 的 候选 检索 词 领 域 专业 


性 、 全 面 性 方面 要 好 于 其 他 两 种 方法 ， 因 而 关键 词 是 抽取 候 
选 检索 词 的 重要 来 源 。 

为 了 验证 关键 词 与 其 他 项 (题名 、 摘 要 ) 的 组 合 效果 有 是否 
能 提升 检索 词 的 抽取 质量 ,以 检索 式 “ 石 墨 烯 ” 为 例 ， 以 基于 
检 出 文献 的 关键 词 为 基础 ,分别 与 题名 、 摘 要 及 二 者 共同 组 
合 以 MF_TR 检索 词 提取 方法 分 别提 取 10 个 候选 检索 词 , 其 
结果 如 表 3 所 示 : 


表 3 基于 检 出 文献 的 题名 、 关 键 词 、 摘 要 组 合 的 
检索 词 抽取 实验 结 


| 关键 词 + 关键 词 + “关键 词 + 题 名 + 

EPRI RENO ag 摘要 摘要 

1 hæk 4 S LEX Ti SS 

2  graphene  graphene graphene graphene 

3 ”氧化 氧化 氧化 氧化 

4 oxide oxide 制备 * 制备 * 

5 EM 制备 * 结构 性 能 * 

7 ”结构 性 能 * 性 能 * 结构 

8 ”纳米 复合 材料 oxide oxide 

9 复合 材料 ”preparation* ”复合 材料 复合 材料 

10 ”化 学 结构 材料 * 材料 * 


观察 表 3 可 知 : 以 关键 词 为 基准 ， 当 分 别 与 题名 、 摘 要 
及 二 者 共同 组 合 进 行 候选 检索 词 的 抽取 时 , 分 别 有 三 个 新 
的 候选 检索 词 进入 观测 表格 。 关键 词 、 摘 要 的 组 合 抽取 效果 
与 关键 词 、 摘 要 、 题 名 三 者 的 组 合 抽 取 效 果 相 当 ， 只 是 候选 
检索 词 的 顺序 稍微 有 些 变化 。 关 键 词 与 题名 的 组 合 抽取 效 
果 ， 制 备 、 性 能 、preparation 三 词 替换 了 只 以 关键 词 抽取 的 
石墨 、 结 构 、 纳 米 三 词 实际 上 效果 并 未 得 到 明显 改善 。 

为 了 验证 是 否 因为 检 出 文献 太 少 导致 这 样 的 结果 ， 以 
“石墨 烯 ”为 检索 式 , 对 检 出 文献 的 数量 增加 到 231 条 ， 实 验 
结果 如 表 4 所 示 : 


RA 基于 检 出 文献 的 题名 、 关 键 词 、 摘 要 的 
检索 词 取 SI 验 结果 


a 关键 间 Xu aa 题名 摘要 ”摘要 
E (110) (231) (110) (231) (110) (231) 
THE GWR OB OBE GWE T 
graphene graphene graphene graphene graphene graphene 
氧化 氧化 制备 制备 氧化 FM 
oxide oxide 氧化 preparation 制备 制备 
还 原 还 原 性 能 性 能 结构 M 

石 石墨 preparation 氧化 还 原 性 能 
结构 纳米 Oxide Oxide 性 能 还 原 
纳米 复合 材料 复合 材料 ”复合 材料 复合 材料 复合 材料 
复合 材料 结构 还 原 还 原 材料 H% 
化 学 * ”性 能 * synthesis — rgo* 纳米 * 
( 注 : 标 * 的 词 表 示 有 变化 的 词语 。) 
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观察 表 4 可 得 出 ,在 观测 窗口 (前 10 个 词 ) 内 , 检 出 文献 
数量 的 增多 只 对 抽取 词语 有 轻微 影响 ,词语 的 变化 限制 在 
一 个 词语 范围 内 ,， 即 实际 上 对 最 后 的 抽取 效果 影响 其 微 , 反 
而 占用 更 多 的 资源 , 增加 了 时 间 成 本 。 

@ 相 关 方法 对 比 

使 用 检索 式 “ 石 墨 烯 and 锂电 池 ” 进 行 检 索 ， 在 万 方 数 
据 库 检 出 131 条 文献 信息 后 基于 题名 、 摘 要 、 关 键 词 分 别 基 
于 最 大 词 频 法 、TR 方法 、TF-IDF 方法 及 LDA 的 方法 提取 


10 个 候选 检索 词 ， 其 结果 如 表 5 至 表 9 所 示 
表 5 基于 题名 的 检索 词 抽 取 方 法 对 比 
序号 MF MF TR TR TF-IDF LDA 
1 — REA GOES EM ”石墨 烯 石墨 焕 
2 ”性 能 性 能 性 能 制备 性 能 
3 ”制备 制备 制备 性 能 制备 
4 ”材料 材料 材料 材料 材料 
5 ”锂电 池 锂电 池 锂电 池 锂电 池 ”锂电 池 
6 ”纳米 纳米 电池 纳米 纳米 
7 ”复合 材料 复合 材料 合成 复合 材料 ”复合 材料 
8 电化 学 电化 学 。 复合 材料 电化 学 已 化 学 
9 AR 合成 纳米 合成 合成 
10 ”电池 电池 电化 学 电池 电池 
do 基于 摘要 的 检索 词 抽取 方法 对 比 
序号 MF MF TR TR TF-IDF LDA 
1 4m nah ae 纳米 石墨 烯 
2 ”材料 材料 材料 4S M 
3 ”性 能 性 能 性 能 复合 材料 性 能 
4 ”纳米 纳米 制备 容量 纳米 
5 ”电池 un 电池 电池 容量 
6 ”容量 制备 结构 材料 电池 
7 ”制备 结构 纳米 循环 制备 
8 ”结构 容量 复合 材料 性 能 结构 
9 ”循环 循环 容量 制备 循环 
10 “复合 材料 复合 材料 循环 mAh 复合 材料 


表 7 基于 题名 、 摘 要 的 检索 词 抽取 方法 对 比 


序号 MF MF TR TR TF-IDF LDA 
1 AES 石墨 烯 GENS 纳米 i SS 
2 材料 材料 材料 复合 材料 ”材料 
3 ”性 能 性 能 性 能 容量 性 能 
4 ”纳米 纳米 制备 电池 纳米 
5 制备 制备 电池 循环 制备 
6 ”电池 电池 纳米 mAh 电池 
7 ”容量 结构 结构 Li 容量 
8 ”结构 容量 复合 材料 ”石墨 烯 ”结构 
9 ”循环 复合 材料 ”容量 复合 材料 
10 ”复合 材料 ”循环 循环 Fe 循环 


XIANDAI TUSHU QINGBAO JISHU E 


11.02013v1 


2017 


hinaXiv: 


C 


de 8 基于 关键 词 的 检索 词 抽取 方法 对 比 


序号 MF MF TR TR TFIDF LDA 
1 ASA SEN 4M UEM SMS 
2 WR 电池 电池 材料 材料 
3 电池 材料 graphene 电池 电池 
4 锂电 池 T 锂电 池 锂电 池 锂电 池 
5 锂 离子 lithium lithium lithium graphene 
6 lithium graphene — 4 graphene lithium 
7 graphene 锂 离子 锂 离子 ” 锂 离 子 SA 
8 负极 battery battery ”负极 battery 
9 battery 负极 石墨 battery 负极 
10 石墨 石墨 负极 石墨 石墨 


表 9 基于 题名 、 摘 要 、 关 键 词 三 者 组 合 的 检索 词 


抽取 方法 对 比 
序号 MF MF TR TR TF-IDF LDA 
1 GM S n næ ”纳米 石墨 炳 
2 材料 材料 材料 复合 材料 材料 
3 ”性 能 性 能 性 能 容量 性 能 
4 ”纳米 制备 制备 循环 纳米 
5 ”电池 纳米 un mAh 制备 
6 ”制备 电池 纳米 电池 电池 
7 ”容量 结构 结构 Li 容量 
8 ”结构 容量 复合 材料 ”g- 结构 
9 ”复合 材料 复合 材料 ”锂电 池 Fe 复合 材料 
10 ”循环 循环 容量 结构 循环 


观察 表 5 至 表 9 可 知 

基于 题名 的 方法 对 比 : 每 种 方法 的 结果 基本 一 致 只 有 
个 别 词 的 位 置 会 有 些许 不 同 , 原因 在 于 所 检 出 文献 的 题名 
较 少 ,因而 基于 题名 进行 关键 词 抽取 时 各 个 方法 的 区 分 度 
不 大 。 

基于 摘要 的 方法 对 比 : 每 种 方法 抽取 的 关键 词 大 体 一 
致 ,与 检索 词 有 关 , 但 是 方法 不 同 , 词语 的 排序 也 不 太一 致 
与 基于 题名 的 方法 相 比 ,， 基于 摘要 的 方法 中 , 词语 有 70% 与 
基于 题名 的 方法 是 完全 相同 的 。 

基于 关键 词 的 方法 对 比 : 基于 检 出 文献 的 关键 词 提取 
检索 词 其 总 体 效果 比 使 用 题名 和 摘要 组 合 效 果 好 ， 其 原因 
在 于 关键 词 是 作者 对 文献 内 容 反复 考量 后 ， 是 作者 从 文献 
内 或 文献 外 选择 出 来 用 以 表示 全 文 主题 内 容 的 单词 和 术语 ， 
因而 其 在 主题 、 专 业 性 方面 具有 天 然 的 优势 。 

关键 词 反映 的 侧重 点 : 从 题名 和 摘要 二 者 提取 的 关键 
词 更 着 重 于 检索 词 所 表达 的 内 在 特征 ， 如 复合 材料 、 纳 米 等 
词 ， 而 基于 文献 的 关键 词 提取 的 关键 词 则 更 多 反映 其 同位 、 
上 下 位 和 相关 关系 ,如 lithium, graphene 等 。 
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方法 对 比分 析 : MF_TR 实际 上 融合 了 传统 的 TextRank 
方法 与 MF 方法 ， 从 实验 结果 上 可 以 看 到 ， 由 于 将 词 频 作为 
权重 因子 对 TR 进行 改进 ， 因 而 其 结果 大 体 与 TR 一 致 ， 但 是 
受 高 频 词 的 影响 ,与 高 频 词 有 共 现 关系 的 词 其 最 终 的 排序 
得 到 提升 。 这 也 与 笔者 的 初衷 相 吻合 。 文 献 检索 的 目的 就 是 
找 出 相关 的 检索 词 ， 而 检索 式 中 的 检索 词 与 检 出 文献 密切 
相关 ， 这 些 检索 词 出 现 的 频次 较 高 ， 而 充分 挖掘 与 高 频 词 有 
共 现 关系 的 其 他 词 正 是 目的 所 在 。 

基于 题名 、 摘 要 、 关 键 词 三 者 的 组 合 进行 关键 词 提取 时 
其 效果 倾向 于 基于 题名 和 摘要 的 组 合 效果 ,其 原因 在 于 题 
名 和 摘要 的 组 合 的 词语 个 数 明 显 高 于 关键 词 的 个 数 ， 在 进 
行 提取 时 , 无 论 是 按 词 频 还 是 按 词语 共 现 关 系 ， 其 更 多 反映 
的 是 文字 较 多 的 摘要 ， 而 关键 词 在 检 出 文献 中 含量 较 少 ， 因 
而 在 融合 的 过 程 中 被 忽略 。 

图 和 迭代 抽取 

为 了 验证 候选 检索 词 的 迭代 抽取 效果 是 否 能 真正 帮助 
查 新 人 员 快 速 找到 相关 的 检索 词 ， 以 抽取 的 候选 检索 词 与 
实际 查 新 案例 最 后 所 使 用 的 检索 词 进行 对 比 。 本 案例 中 , 委 
托 人 提供 的 信息 如 图 4 所 示 : 


题目 : 我 国 莱 姆 病 的 发 现 与 研究 
科学 技术 要 点 : 

(1) 从 1988 到 1990 年 在 我 国 首先 大 规模 地 进行 了 菜 姆 病 
流行 病 学 调查 , 详细 阐述 了 我 国 莱 姆 病 疫 源 地 特征 ; 

(2) 在 我 国 首次 证 明 全 沟 硬 蝗 可 经 卵 传 递 菜 姆 病 螺旋 体 

G) 在 国内 首先 应 用 先进 技术 分 析 了 不 同 地 理 株 菜 姆 病 螺 
旋 体 蛋白 、 脂 肪 酸 成 分 ; 首先 用 电镜 观察 了 不 同 地 理 株 螺旋 体 
的 超 微 结构 ; 

(4) 在 国内 首先 成 功 地 制备 了 伯 氏 朴 螺 旋 体 的 单 克 隆 抗 
k, 并 用 于 病原 体 鉴 定 和 实验 诊断 。 
查 新 点 : 

查 上 述 科 学 技术 要 点 国内 外 是 否 有 同类 研究 ， 并 对 其 新 颖 
性 作出 判断 。 
最 后 的 检索 报告 中 包含 的 检索 词 包括 : 

UA. 流行 病 学 ; 全 沟 硬 蝗 ; 伯 氏 朴 螺 旋 体 ; 单 克隆 抗体 


图 4 检索 词 的 选 代 抽取 娄 侈 


第 一 次 迭代 : 

1) 根据 科技 查 新 的 题目 自动 生成 检索 式 :“ 我 国 and 
莱 姆 病 and 发 现 ” 进 行 检 索 。 检 出 文献 共 85 条 ,基于 检 出 文 
献 的 关键 词 ， 利用 MF TR JE, 返回 的 10 个 候选 检索 词 包 
括 : 莱 姆 病 、 螺 旋 体 、 试 验 、 基 因 型 、 多 态 性 、 流 行 病 学 、 
血清 、 诊 断 、 病 毒 、 伯 氏 。 

2) 术语 扩展 。 根 据 公式 (4) 对 候选 关键 词 计算 其 领域 重 
要 性 得 分 。 

3) 领域 重要 性 得 分 较 高 的 前 IO 个 词 为 : 莱 姆 病 螺旋 
体 、 莱 姆 病 、 伯 氏 跌 螺旋 体 、 流 行 病 学 、 流 行 病 学 调查 、 
螺旋 体 、 间 接 免疫 荧光 试验 、 诊 断 、 酶 联 免疫 吸附 试验 、 
基因 型 。 
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第 二 次 和 迭代: 

1) 根据 第 一 次 迭代 过 程 中 产生 的 前 10 个 检索 词 
进行 二 次 检索 。 通 过 选择 “ 菜 姆 病 螺旋 体 ” 作 为 检索 式 进行 
检索 。 检 出 文献 共 130 条 ,基于 检 出 文献 的 关键 词根 据 
MF TR 算法 抽取 , 返回 的 10 个 候选 检索 词 包 括 : 莱 姆 病 、 
螺旋 体 、 有 蛋白、 基因 型 、 伯 氏 、 表 达 、 和 宿主 、 全 沟 、 流 行 病 
学 、 传 播 。 

2) 候选 检索 词 扩展 。 与 第 一 次 迭代 过 程 类 似 ， 扩 展 后 得 
到 : KARA, RA, ARARA DAR 
因 型 、 流 行 病 学 调查 、 限 制 性 片段 长 度 多 态 性 、 流 行 病 学 、 
实验 经 期 传播 、 螺 旋 体 。 

合并 : 迭代 过 程 产 生 的 检索 词 进行 合并 ， 由 于 每 次 迭代 
过 程 产 生 的 语料库 不 同 ， 因 而 可 能 同一 个 检索 词 在 不 同 的 
和 迭代 过 程 中 得 分 并 不 一 致 ， 此 时 取 分 值 较 高 的 值 参 与 排序 。 

通过 两 次 迭代 检索 并 最 终 合 并 后 ， 生 成 最 终 的 检索 词 
列表 : 莱 姆 病 螺旋 体 、 莱 姆 病 、 伯 氏 疏 螺旋 体 、 流 行 病 学 、 
流行 病 学 调查 、 全 沟 硬 昨 、 螺 旋 体 、 基 因 型 、 间 接 免疫 荧光 
试验 、 诊 断 。 

通过 与 最 终 的 检索 报告 对 比 ， 在 合并 得 到 的 前 10 个 检 
RAP, RAA, AAF, MARRARA, AAR 4 
个 检索 词 完全 匹配 ， 召 回 率 为 80%。 


6 结论 及 展望 


本 文 基于 科技 查 新 过 程 检 出 的 实时 相关 语 料 为 
基础 ， 提 出 一 种 检索 词 智能 抽取 方法 ,并 以 此 为 领域 
知识 的 来 源 , 采用 关键 词 抽取 、 领 域 特征 扩展 相 结 合 
的 递 进 式 迭 代 抽 取 方 式 对 检索 词 抽取 进行 系统 实现 。 
通过 与 实际 查 新 案例 所 使 用 的 检索 词 比较 发 现 , 使 
用 本 方法 两 次 迭代 后 抽取 10 个 检索 词 , 召回 率 达 到 
8096; 

由 于 本 研究 通过 网 络 怜 虫 在 线 获 取 文 献 集合 ,对 
候选 检索 词 的 获取 来 说 , 通常 情况 下 ， 需 要 一 定数 量 
的 科技 文献 ,而 这 也 意味 着 耗费 的 时 间 比 较 长 ,因而 
后 续 的 研究 将 会 在 实际 的 科技 查 新 业务 中 通过 实践 、 
摸索 寻找 一 个 平衡 点 。 另 外 , 候选 检索 词 的 抽取 效果 
与 文献 数据 库 所 收录 论文 的 规范 性 有 很 大 关系 , 尤其 
是 拼写 错误 会 对 英文 候选 检索 词 的 抽取 产生 较 大 的 影 
响 ， 因 而 在 后 续 的 工作 中 ,对 错误 的 自 纠 自 查 也 是 未 
来 努力 的 方向 。 
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Using Intelligent System to Extract Search Terms for Sci-Tech Novelty 
Retrieval 
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Abstract: [Objective] This paper aims to identifying the search terms more effectively in sci-tech novelty retrieval, 
which could reduce the subjectivity, heavy workload, de-normalization and time-consuming issues facing the manual 
methods. [Context] We used the corpus generated by the sci-tech novelty retrieval as the source of domain knowledge 
to extract search terms. Then, we discussed the relationship between the corpus and the keyword extraction. [Methods] 
We proposed an incremental iterative method to extract keywords from the sci-tech novelty retrieval project with the 
help of domain feature expansion. [Results] Compared to search terms from the real world sci-tech novelty retrieval, 
the recall rates of the 10 search terms extracted by the new method reached 80%. [Conclusions] The proposed method 
could identify most keywords and then improve the efficiency and effectiveness of the novelty retrieval tasks. 
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